在大數據的預處理上,Google於2003-2006以驚世駭俗之姿,推出了
然而,有鑑於Apache基金會成功以Hadoop活絡社群的力量,Google意識到自己可以做出更多更大的影響。
Apache Beam計畫就此誕生了,目前官網上提供Java、Python及Go對應的支援。
那麼,Beam的出現,對於原本的三大利器使用上有什麼變化呢?
GFS屬於檔案系統架構,並不會由Beam直接影響;BigTable管理著類似資料庫的檔案表格結構,需要有SQL快速取用的工具(以GCP來說就是用BigQuery來操作,而BigQuery支援標準的SQL語法)。
由此可見,Beam想提供升級的部分,正是原來分散處理架構的Mapreduce。
這裡引用一下課程:
我們可以發現,如果想要的話,Beam幾乎可以幫忙做完全部的預處理。
這裡要提醒,其實這不代表用了Beam就不用寫任何附屬的程式,而是把其他程式的部分模組化成input_function
或serving_function
。
Beam提供了強大的流程控制,而控制單元內部則可繼續使用完成對應功能的程式碼。